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Abstract 


In this paper, | found the two reasons of overfitting of cross entropy: boundary samples occupy a larger 
and larger share as the length of normal vector becomes longer and longer, boundary samples do not 


fit their probability density function well. 
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1 引言 


交叉 凡是 机 器 学 习 的 一 个 常用 损失 函数 ， 可 以 用 于 简单 的 算法 ， 例 如 逻辑 回归 D4], 也 可 以 
用 于 复杂 的 模型 ， 例 如 BERTI3], SimCLR[2]. 

交叉 炉 有 一 个 无 法 完美 解释 的 的 问题 ， 过 拟 合 现象 ， 即 训练 一 段 时 间 以 后 ， 随 着 训练 样本 
集 上 的 正确 率 逐 渐 提 高 ， 测 试 样本 上 的 正确 率 却 不 再 提高 甚至 反而 下 降 。 过 拟 合 的 根本 原因 沿 
无 共识 , 目前 的 应 对 办 法 是 在 损失 函数 中 添加 正则 化 项 [11], 阻止 参数 变 得 过 大 ,至 于 多 大 算是 
“过 大 ”， 没 有 具体 定义 。 
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通常 的 解释 是 模型 过 于 复杂 [11, 14] ， 要 用 相对 简单 的 模型 来 缓解 过 拟 合 现象 ; 至 于 过 拟 合 
的 成 因 ， 可 用 “偏差 -方差 分 解 ”[5, 14] 来 解释 ，[4] 还 讨论 了 过 拟 合 与 噪声 、 多 重 假设 检验 的 关 
系 。 缓 解 过 拟 合 的 常用 手段 是 添加 正则 化 项 ，[1H] 对 比 了 Li 正则 化 和 Lo 正则 化 的 特点 。 

虽然 正则 化 缓解 了 过 拟 合 现象 , 但 它 带 来 了 新 的 麻烦 : 正则 化 系数 的 选择 缺少 理论 指导 , 只 
能 针对 具体 训练 样本 多 次 试探 ; 正则 化 还 增加 了 模型 复杂 度 ， 求 解 最 优化 问题 需要 大 量 的 技巧 
[1, 6-10, 12, 13]. 

本 文 跳出 常规 的 概率 视角 ， 通 过 观察 直观 的 几何 图 像 ， 用 严格 的 数学 公式 证 明 ， 过 拟 合 的 
原因 有 两 个 : 边界 样本 的 损失 贡献 比重 大 且 随 法 向 量 增长 而 加 速 增 大 、 边 界 样 本 分 布 散乱 ; PR 
然 法 向 量 过 大 只 是 过 拟 合 的 表象 ， 但 是 控制 法 向 量 模 长 却 能 够 切实 缓解 过 拟 合 ， 因 此 各 种 正则 
化 手段 有 效 。 

本 文 后 续 内 容 这 样 组 织 。 第 2 节 定 义 几 个 函数 ， 为 后 文公 式 推导 做 准备 ; 第 3 节 给 出 交叉 
ABUS 第 4 节 给 出 过 似 和 实例 ， 证 明 过 拟 合成 因 ; 第 5 节 证 明 2 个 定理 ， 法 向 无 限 和 法 向 
有 界 。 


2 符号 定义 
作为 准备 ， 本 节 定 义 几 个 函数 。 目 前 流行 深度 学 习 软 件 包 中 ， 例 如 pytorch， 数 组 的 组 织 
式 是 行 优 先 ， 因 此 本 文中 的 向 量 、 甜 阵 也 按 行 优先 来 定义 。 
任意 给 定 正 整数 m I d, 行 向 量 用 黑体 小 写字 母 表 示 ， 形式 为 x = (11,22,.. 24). EH 
大 写字 母 表示 ， 形 式 为 


Tii T12 Tid | 
T21 722 T2d 
x=| n 
| Tml Xm2 ` Ymd | 
软 大 函数 (softmax) 定义 为 
1 
smax(z) = mmm PNE SLUT 
人 
smax(zı:) 
smax(zə.:) 
smax(X) = . = (smax(z1:); smax(z2:); . ..;smax(zq:)), 
smax(Zzm:) | 


这 里 的 m; = (£i, Zi2, ,2Zid)， 圆 括号 里 的 分 号 表示 换行 。 
对 向 量 或 矩阵 求 对 数 时 ， 对 数 作用 到 它们 的 每 一 个 元 素 上 ， 即 


log(Z) = (log(zi),log(z2),...,log(za)), 
log(z11) log(z12) RENE log(z14) 
log(X) = RUM DRM x wel 
| log(£m1) log(£m2) Ps log(£ma) | 


假设 行 向 量 5 = (op po)， 将 行 向 量 与 矩阵 相 加 定义 为 逐 行 相 加 ， 即 


xij by. Zi2+b2 21d 十 bu 
X4b- SE 222 +b2 © GA 
Imi tbi Tmz +tb2 + M 


3 AUN 


给 定数 据 集 D = {(x1, y1), (£2, Y2), -- (Em; Vm) d ITEE £i = (mi mim... mi), EK 
yi € (,2,...,a) 表示 向 量 ae; 归属 的 类 ， 正 整数 a 表示 类 别 数量 。 

Q a E e, 二 (0,.….,0,1,0,...,0)， 即 第 y 个 元 素 为 1， 其 它 元 素 均 为 0。 对 任意 给 定 的 
(x,y), 4 u — zW +b, KEW W dxa EE, b EKEN a WTE. S 


s - giunx(u) (GD 
显然 s 是 长 度 为 a 的 行 回 量 。 样 本 (x,y) EWEUH 
l(z, y) = —In(eys 

因此 ， 样 本 集 D 上 的 损失 函数 为 


7) 


m 


1 
L(W, b) — ES 2 eny), (2) 
求解 它 的 最 小 值 " 
(W, b} = arg min 7 (ns O 


得 到 最 优 参数 做 和 ?将 最 优 参数 代 人 式 CD ,就 能 预测 任意 样本 z 归属 哪 一 类 , 即 arg max? sjo 


31 4E XU 
当 a —2W, EE W 的 元 素 记 为 


wiy 2 
w21 W22 
W = , ] ) 
FM 
列 向 量 wi = (wii, wi2,..., w14)7 , 列 向 量 w = (w21, wo2,..., woq)? , 列 向 量 w = wi — wo. fT 


HÆ b 的 元 素 记 为 5= (b, b2), b — by — b»; FAE u ICREA u = (ui, u2), uy = gw bi, 
us = vw» + b2; 行 向 量 s 的 元 素 记 为 s = (51,52). XE (m, y), MUR y = 1, Fx 为 正 样本 ， 此 时 
ey = (1,0); WR y =2, fy a 为 负 样本 ， 此 时 e, = (0,1). 


由 式 (1) 得 到 
2 gu o o oa 1 NED MN 
$1 eu 十 ev2 m 1-4 eu-u 1 +e? E a(z), 
e”2 
CE eu 十 ev2 =1 a(z), 


1 "1 1 L 
6 4 2 2 4 


图 1: —4 3S SE SUIS: 近似 值 o(z)( 红 色 曲 线 ) 与 h(z,y)( 带 双向 租 头 的 直线 )。 


h(z,y) 


AL 
y=1 


Z 
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图 2: ZDARIA hz, y) 的 图 象 。 红 线 对 应 正 样 本 ， 蓝 线 对 应 负 样 本 。 


这 里 的 实数 z = wi — uz = ew «b, Sigmoid 函数 o(z) = zi. Afi — 2 Sz SUR RT PADIUS A 


— In(c(z)), = 1; 
TE (a(z)) WR y=1 T 
—lni(1—0(z)), WẸ y =2. 


相应 地 ， 样 本 集 D 上 的 损失 函数 式 (2) 改写 为 


m 


1 
L(W,b) = — >, h(zi, yi); (5) 
最 优化 问题 3) 改写 为 
(W, b} = arg min Ma. © 


AE SUR HI TER RZ, AHER (2, y). 如果 类 别 y 正确 , BAZU hlz, y) 应 该 为 0 或 者 十 
分 接近 0， 从 而 要 求 c(z) 对 正 样本 趋向 于 1，1 一 o(z) 对 负 样 本 趋向 于 1。 如 图 1 所 示 ， 红 色 曲 
线 是 Sigmoid 函数 o(2); 在 x 为 正 样本 即 y = 工时 ， 用 右 侧 双向 箭头 标记 的 距离 反映 曲线 o (2) 
与 1 之 间距 离 ，z 越 大 ，c(z) 越 接近 于 1; 在 z 为 负 样本 即 y = 2 时 ， 用 左 侧 双 向 箭头 标记 的 距 
离 反映 曲线 o(z) 与 1 之 间距 离 ，z 越 小 ，1 一 o(z) 越 接 近 于 1。 

图 2 画 出 了 单个 正 样本 (红色 ) 和 单个 负 样 本 ( 蓝 色 ) 的 损失 曲线 。 直观 地 理解 ， 如 果 样 本 集 
是 线性 可 分 的 ， 那么 正 样 本 对 应 的 z 越 大 ， 该 样本 上 的 损失 函数 值 越 小 ; 负 样 本 对 应 的 z 越 小 ， 
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X iteration 
图 3: 线性 可 分 样本 集 上 图 4: 线性 可 分 样本 集 上 
的 过 拟 合 的 正确 率 


该 样本 上 的 损失 函数 值 越 小 。 从 而 ， 式 (3) 的 计算 结果 是 负 样 本 向 z 负 无 穷 方向 移动 ， 正 样本 向 
z 正 无 穷 方 向 移动 ， 达 到 了 分 类 的 目的 。 


4 ”过 拟 合 实例 与 成 因 


如 果 存 在 列 向 量 名 = (w, w2... wa)! 和 行 向 量 6 = (61,62,...,64)， 且 |ww| 关 0， 使 得 对 
V(zi,yi) ED 有 


$ =i WA pegot 


: (7) 
yi —2, 如果 (zi 一 Cw <0, 
那么 称 数据 集 DD 是 线性 可 分 的 ， 称 d 维 平面 
(x — Gp = 0 (8) 


为 分 隔 面 。 显 然 ， 分 隔 面 不 唯一 。 

以 交叉 灶 作 为 损失 函数 训练 时 ， 正 确 率 通常 会 随 着 训练 步 数 的 增加 而 升 高。 有 时 在 训练 若 
干 步 以 后 ， 随 着 训练 集 样本 上 的 正确 率 逐 渐 提 高 ， 测 试 集 上 的 正确 率 不 再 提高 甚至 下 降 ， 这 种 
现象 称 为 过 拟 合 。 

为 直观 说 明 过 拟 合 的 成 因 ， 先 给 出 2 个 没有 实际 意义 的 例子 ， 它 们 分 别 对 应 线性 可 分 的 样 
本 集 和 线性 不 可 分 的 样本 集 。 


41 线性 可 分 样本 集 上 的 过 拟 合 


图 3 中 , 蓝 色 圆圈 是 训练 集中 的 负 样 本 ,红色 圆圈 是 训练 集中 的 正 样 本 。 训练 集中 的 36 个 负 
样本 均匀 分 布 在 区 域 3, 71] x [-1,1] 中 ,一 个 偏离 主体 的 训练 集 负 样本 是 点 (0.5,-1)。 训 练 集 
中 的 36 个 正 样本 均匀 分 布 在 区 域 [1,3] x [71,1] 中, 一 个 偏离 主体 的 训练 集 正 样本 是 点 (-0.5,1)， 
容易 验证 这 个 训练 集 线 性 可 分 。20 x 20 个 蓝 色 小 圆 点 是 测试 集中 的 负 样 本 ， 它 们 均 久 分 布 在 区 
间 [一 3, —0.2] x [71.5, 1.5] 中 ; 20 x 20 个 红 点 小 圆 点 是 测试 集中 的 正 样本 ， 它 们 均 义 分布 在 区 间 
[0.2, 3] x [一 1.5,1.5] 中 。 
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图 5: 线性 不 可 分 样本 集 图 6: 线性 不 可 分 样本 集 
上 的 过 拟 合 上 的 正确 率 


以 交叉 炉 为 损失 函数 对 这 个 样本 集 分 类 ， 用 最 速 下 降 法 迭代 求解 式 3)， 和 迭代 步 长 指定 为 

0.1. 图 3 中 的 黑色 直线 是 初始 分 隔 线 (分 隔 面 在 二 维 空 间 退 化 为 分 隔 线 ), TÉZT Co ig 2 3 1000 
步 后 的 分 隔 线 ， 洋 红色 实 直线 是 迭代 2000 步 后 的 分 隔 线 。 黑 色 直 线 按照 式 (9) 选取 : 

(x po + pa (ua — po)” — 0 (9) 

2 [ii — Hol 

这 里 的 jwo 是 训练 集中 所 有 负 样 本 的 均值 ，Aai 是 训练 集中 所 有 正 样本 的 均值 。 


图 4 是 欠 代 过 程 中 的 正确 率 走势 ， 在 第 1635 步 达 代 之 后 ,训练 集 上 的 正确 率 达 到 了 1, 但 测 
试 集 上 的 正确 率 从 第 180 步 开 始 持续 下 降 ， 发 生 过 拟 合 。 


42 线性 不 可 分 样本 集 上 的 过 拟 合 


KSF, 蓝 色 圆圈 是 训练 集中 的 负 样 本 ,红色 圆圈 是 训练 集中 的 正 样 本 。 训练 集中 的 36 个 负 
样本 均匀 分 布 在 区 域 [-3, 1] x [71,1] Pr, 一 个 偏离 主体 的 训练 集 负 样 本 是 点 (0.4,-0.4)。 训 练 集 
中 的 36 个 正 样本 均匀 分 布 在 区 域 [1, 引 x [71, 1 中 ,一 个 偏离 主体 的 训练 集 正 样 本 是 点 (-0.8,0.4)。 
根据 定义 ， 这 个 训练 集 线 性 不 可 分 。20 x 20 个 蓝 色 小 圆 点 是 测试 集中 的 负 样 本 ， 它 们 均匀 分 布 
在 区 间 [—3, —0.2] x [71.5, 1.5] 中 ; 20 x 20 个 红 点 小 圆 点 是 测试 集中 的 正 样本 ， 它 们 均匀 分 布 在 
区 间 [0.2, 3] x [一 1.5,1.5] 中 。 

以 交叉 炳 为 损失 函数 对 这 个 样本 集 分 类 ， 用 最 速 下 降 法 迭代 求解 式 3)， 友 代步 长 指定 为 
0.1。 图 5 中 的 黑色 直线 是 初始 分 隔 线 ， 洋 红色 虚线 是 述 代 5000 步 后 的 分 隔 线 ， 洋 红色 实 直线 是 
3X 10000 步 后 的 分 阳线。 黑色 直线 的 方程 是 (9)。 图 6 是 迭代 过 程 中 的 正确 率 走势 ,训练 集 上 的 
正确 率 保持 平稳 ， 但 测试 集 上 的 正确 率 从 463 步 开 始 持 续 下 降 ， 发 生 过 拟 合 。 

仔细 观察 图 3 和 图 5 发 现 ， 很 少 的 边界 样本 的 大 致 决 定 了 分 阳 面 的 走向 ， 边 界 样本 的 影响 力 
比 远离 边界 的 样本 的 影响 力 大 很 多 ， 这 就 是 探寻 过 拟 合 线索 。 


4.3 ”过 拟 合成 因 


人 眼 直观 判断 ,图 3 和 图 5 中 各 有 2 个 训练 样本 远离 主体 ， 应 该 按 噪 音 处 理 , 舍 去 ; 即使 不 舍 
去 ， 它 们 对 确定 分 隔 线 的 影响 也 不 应 太 大 。 实 际 上 ， 如 果 舍 去 噪音 样本 ， 那 么 训练 集 得 到 的 理 


0 


想 分 隔 线 应 该 为 zl — 0。 黑 色 直 线 方程 为 0.9999zi 十 0.0140zs = 0， 与 理想 分 割 线 很 接近 。 

以 交叉 炉 为 损失 函数 得 到 的 分 隔 线 是 怎么 偏离 样本 主体 的 呢 ?” 为 此 ， 和 仔细 观察 损失 函数 
h(z,y) 的 走势 。 从 图 2 中 知道 ， 对 正 样本 vi, WR zi L0, 那么 zi 被 正确 分 类 ， 此 时 它 的 损 
失 函 数值 h(o (zi), yi) < 一 In(o(0)); 如 果 zi «0, 那么 xi 被 错误 地 分 为 负 类 ， 此 时 它 的 损失 函 
ZUE h(o(zi). vi) > 一 In(o(0))。 当 zi 为 负 样 本 时 ， 情 况 类 似 。 

从 图 2 中 可 以 直观 地 看 到 ， 相 对 于 被 正确 分 类 的 样本 ， 被 错误 分 类 的 样本 对 损失 函数 的 贡献 
更 大 。 

为 了 定量 分 析 样 本 对 损失 函数 的 贡献 ， 需 要 用 Taylor 公式 寻找 h(z, v) 的 简单 近似 函数 。 为 
此 定义 两 个 函数 


z=, 如 果 z < 一 Co < 0, 
及 (z) = 4 In(o(2)), wÆ -— Co < z < Co, (10) 
—e *, 如 果 z > Co O0, 


—e?, 如 果 z < 一 Co < 0， 
f(z)-4mü-e(z), 40 - Co < z < Co, (11) 
—-z—e&e^*, 如 果 z > Co > 0, 
这 里 的 Co 是 任意 指定 的 正 实数 。 
定理 1. 函数 filz) 是 In(o(z)) 的 一 阶 近似 ， 函数 falz) 是 In(1 — o(2)) 的 一 阶 近似 。 
证 . 先 证 明 filz) 是 In(o(z)) 的 近似 。 当 z < —Co Hf, e* < exp(-Co) < 1， 从 而 有 
In(o(z2)) = In(—— “jenet 


X z > Co 时 , e^? < exp(-C9) « 1, AME 
ln(o(z)) = in bes! = ln(1) — In(1-- € *) = —e * 4-O(e ?^). 
因此 ， 对 任意 给 定 的 实数 z, max(|fi(z) — In(e(2))]) = O(exp(—-2€0)), Kt fi(z) 是 In(e(2)) 
的 近似 。 
再 证 明 户 (z) 是 In(1 — o(2)) 的 近似 。 当 z < —Co Bf, e* < exp(-Co) < 1， 从 而 有 


ml-ca) = a(-y) =h- ra = (77) = In(1) - In(1 + e?) 
= 一 ez + O0(e”). 
X z > Co 时 , e ? < exp(—Co)< 1, AME 
In(1 ~—o(z)) = ln(1 1 De» (1 z a) = In(e7?) — In(1 + e7” 


因此 ,对 任意 给 定 的 实数 z,max(|f2(z) 一 In(1-o(z))|) = O(exp(—2C0)) , KÆ f2(2) Œ In(1—0(z)) 
的 近似 。 [证 毕 ] 

当 Co = 43 时 ，exp( 一 C0) = 0.0136, exp( 一 2C0) = 0.00018411。 实 际 上 ， 容 易 验 证 ， 此 时 
A 0« fi(z) 2 In(c(z)) < 0.0001, 0 < f(z) 一 ln(1 一 o(z)) < 0.0001， 通 近 良 好 。 
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根据 定理 1， 损 失 函 数 (4) 可 以 近似 地 表示 为 


一 万 (2z)， 如 果 y= 1, 
h(z,y) = 
—fa(z), WR y = 2. 
为 简化 说 明 ， 本 节 后 续 叙 述 只 考虑 正 样本 的 损失 函数 曲线 ， 负 样本 的 情形 类 似 。 假 设 训练 
过 程 中 的 分 隔 面 方程 为 (x 一 c)w = 0， 这 里 的 c 是 4 维 行 向 量 。 假 设 样本 zl 和 zo 均 为 正 样本 ， 
即 y; —1, ya — 1, FEA HE w £l c, A zi = (x1 -— c)w fll z 二 (722 一 c)w。 观 察 图 2 中 红 
ZX ABB. WR z1 < z2, JA h(z21,y1) > h(z2,y2)， 即 
推论 1. 样本 的 加 权 距 离 越 小 ， 损 失 贡 献 越 大 。 
给 定 Co > 0。 ?4 z1 < zo < —Co EF, x1 和 x 均 位 于 分 隔 面 (x — c)w = 0 的 背面 ， 即 都 被 


分 错 了 。 假 设 ws = tw， 其 中 实数 t> 1, W3 = (x1 — c)w fl z = (x2 一 c)w3， 那 么 有 
hay)  h(tzmw),, -Rh(tzum mo 2 2 h(nun) 


一 A ~N 


h(z2,y2)  h(tz2,y2)  —fıltz2,y2)  t22— € ~ z3 h(zo,yo) 
由 式 (12) 得 
推论 2 被 分 错 样本 之 间 的 损失 贡献 比例 不 随 法 向 量 的 变化 而 变化 。 
给 定 Co > 0. ?4 Co < zy < zo Ef, xı 和 zs? 均 位 于 分 隔 面 (z — c)w = 0 的 正面 ， 即 都 被 分 
对 了 。 假 设 ws = tw， 其 中 实数 t> 1， 记 丈 = (21 一 c)ws M zZ = (x2 — c)ws, WAA 
(9)  hAüzuw), hn), e^ 


(Zo " H h(tz2,y2) | —fi(tz3) | et? = exp(t(22 — 21)) = (exp(za — 21))', (13) 
由 式 (13) 得 


推论 3. 被 分 对 样本 之 间 的 损失 贡献 比例 会 随 着 法 向 量 的 增长 而 指数 级 增长 。 

给 定 Co > 0. ?4 29 > Co H. z; = —22 Hf, a1 P x 分 别 位 于 分 隔 面 (z — ew = 0 的 背面 和 
正面 ， 即 一 个 被 分 错 了 男 一 个 被 分 对 了 ， 即 y= 二 2 和 wp == 1。 假设 ws — tw， 其 中 实数 t > 1, 
iz = (21 一 c)ws fll zo = (7x2 一 c)ws， 那 么 有 

h(z,y1) _ h(—tz2,y2) _ —fı(—tz2) _ tz2 十 exp( 一 tz2) 


H p i =1+t tz2). 14 
h(z2, y2) h(sz2, y2) — fı (tz2) exp(—t22) 22 exp( z2) ( ) 


由 式 (14) 得 
推论 4 被 分 错 样 本 与 被 分 对 样本 之 间 的 损失 贡献 比例 会 随 着 法 向 量 的 增长 而 指数 级 增长 。 
将 分 隔 面 附近 样本 称 为 边界 样本 。 从 推论 1~ 推论 4 可 知 ， 对 损失 函数 的 贡献 比例 ,由 大 到 小 
分 顺序 是 : 被 分 错 的 样本 、 被 分 对 的 边界 样本 、 被 分 对 的 其 它 样本 ， 它 们 之 间 的 比例 关系 随 着 
法 向 量 的 增长 而 迅速 增 大 。 适 用 平面 二 分 类 的 数据 集 ， 被 最 优 分 隔 面 分 错 的 样本 占 比 不 大 ， 这 
样 被 分 错 的 样本 通常 会 在 分 隔 面 附近 。 由 附录 定理 2 知 ， 在 线性 可 分 数据 集 上 ， 法 向 量 模 长 [w] 
趋向 无 穷 大 , 分隔 平面 几乎 完全 由 边界 样本 决定 。 由 附录 定理 3 AU, 在 线性 不 可 分 数据 集 上 , 法 
向 量 模 长 w 有 界 ， 但 最 优 分 隔 面 的 法 向 量 模 长 可 能 仍然 很 大 , 过 拟 合 仍然 严重 。 因 此 得 出 过 拟 
合 原因 之 一 : 边界 样本 的 损失 贡献 比重 大 且 随 权重 增长 而 加 速 增 大 。 
自然 界 很 多 事件 服从 正 态 分 布 ， 例 如 图 7， 中 心 处 样本 密度 大 ， 能 够 很 好 在 逼近 其 概率 密 
函数 ; 在 远离 中 心 的 边缘 处 ， 概 率 密度 函数 的 值 较 小 ， 样 本 稀疏 ， 不 能 很 好 地 反映 其 概率 密度 
函数 。 考虑 到 训练 集 边界 样本 基本 决定 分 隔 平面 ， 而 测试 集 样本 的 实际 分 布 与 训练 集会 有 一 些 


tz 一 6 (12) 


pe 
) 


h 
h 


Hr 


R KR ORE 


1 E " hd 1 1 
0 0.2 0.4 0.6 0.8 


图 7: 一 个 服从 正 态 分 布 的 样本 集 


差异 ， 所 以 得 到 的 分 隅 平面 不 能 很 好 地 分 隔 训练 集 。 因 此 得 到 过 拟 合 的 原因 之 二 : 边界 样本 分 
布 散乱 。 
第 4.1 节 、 第 4.2 节 的 2 个 过 拟 合 例 子 都 是 根据 这 2 个 原因 设计 出 来 的 。 


44 正则 化 的 作用 机 理 


缓解 过 拟 合 的 常用 手段 是 添加 正则 化 项 ， 各 种 各 样 的 正则 化 方法 的 目标 都 是 一 致 的 : 控制 
法 向 量 的 模 长 , 不 让 |w| 过 大 。 由 过 拟 合 的 成 因 可 知 , 虽然 法 向 量 过 大 只 是 过 拟 合 的 表象 , 不 是 
根本 原因 ， 但 限制 它 的 模 长 确实 有 效 缓解 了 过 拟 合 ， 这 是 因为 它 限制 了 边缘 样本 的 损失 贡献 比 
重 。 正 则 化 缓解 过 拟 的 同时 ， 必 然 会 降低 训练 集 上 的 正确 率 。 

从 过 拟 合成 因 还 可 以 知道 缓解 过 拟 合 的 另 一 个 思路 : 修整 边界 样本 使 之 准确 反映 概率 密度 
函数 。 教 科 书 [14] 中 已 经 写 明 增加 样本 数量 能 缓解 过 拟 合 ， 其 实 也 可 以 用 边界 样本 散乱 的 观点 
来 解释 : 增加 样本 总 量 ， 边 界 样本 数量 也 同比 例 增 加 ， 从 而 边界 样本 更 好 地 反映 其 概率 密度 函 
数 ， 缓 解 过 拟 合 。 


5 附录 
先 考查 损失 函数 式 (4) 的 导数 


hz(z,Y) = 


Oh(z,y) _ po —1, W y=l1, (15) 


a(z), WR y = 2. 

hz(z,y) 的 图 像 如 图 8 所 示 。 对 正 样本 mi, 24 z; > 0B[ —0.5 < hz(zi yi) «0, 234 z «OH —1« 
hz(zi yi) < —0.5, 24 zi = 0 | hz(zi, yi) = —0.5; 对 负 样本 xi, 24 zi > ORT O.5 < hz (zi yi) « 1, 
3 z«UB «Rx yi) «05, 3 zi = 0 H} hz(zi yi) = 0.5. 


定理 2 (法 向 无 限 ). 样本 集 DD 线性 可 分 时 ， 最 优 分 隔 面 的 法 向 量 o 的 模 长 是 +co。 


图 8: 5 AC ERU TZ hz Cz, y) 的 图 像 。 


证 : 根据 线性 可 分 的 定义 ， 存 在 列 向 量 w 和 行 向 量 &，|w1| A0, DS v yi) E Dim 


(x; —6)w; 20, WF y;-l, 
Zi = 
(zi 一 wi <0, WÈ yi = 2. 


4 w = 20, WAS 


ĉi = (£i — €)u» = 2(£i — e) = 22j,1 = 1,2,...,m, 
. 一 ln(1 一 o(2%;)) < —ln(1 — e(z;j)), WÈ yi = 1, 
h(ĉi, yi) = 
— In(c(22;)) € — ln(o(zi)), 如 果 y; = 2. 


BI L(wo,b) < L(w1,0)。 按 照 这 个 每 次 模 长 加 倍 的 方法 推 下 去 ， 就 得 到 [uw| = 十 co。 


定理 3 (法 向 有 界 ). 样本 集 D 线性 不 可 分 时 ， 最 优 分 隔 面 的 法 向 量 有 界 。 
证 : 假设 满足 式 (6) 的 最 优 分 隔 面 的 点 法 式 方程 为 


(x — e) = 0. 


4 n= v/h], S |n| = 1。 假 设 样本 集 D 线性 不 可 分 ， 从 而 存在 指标 i 使 得 


Zi = (xi — ê)n < 0, H. yi = 1, 


或 者 
zi = (x; — ĉ)n > 0, H. yi = 2. 
将 指标 集合 记 为 
hb = {iljz <0 Hyi =2, 1<i< m}, 
h = {ijz > 0 Hy = 1, 1<i< my, 
h = {jz >0HEy=2, 1<j< m}, 
J = {jz <0 Hy;=1, 1<j <m}, 


Ko = {k|zk 0, 1<k<my, 
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[证 毕 ] 


(16) 


(17) 


(18) 


指标 集合 上 的 损失 函数 分 别 记 为 
Lnn) = LY hGsw) In) =E heyi), 


icIo ic 


1 . 
Lj,(n) — T > h(zj, yj), Lj, (n) zs "i p» h(zj. yj). 
j€Ja JEJ 
1 
Lio(n) = — 5, h(k yk) (19) 


kc Ko 
由 式 (2) AI, 
L(n,b) = Lr (n) + Li (n) + Lj, (n) *- Lj, (n) - Lk(n). 

AR (107)(16) M I2 U F4 U Ko M J2U Ji BA 3E E S. 为 论证 方便 , 这 里 仅 考 虑 Do. D. Jo. 
Ji. Ko 均 为 非 空 集合 的 一 般 情 形 ， 其 它 特殊 情形 可 做 类 似 证 明 。 

邻 入 > 1 为 正 实数 ，56 为 正 无 究 小 量 。 接 下 来 寻找 入 的 取 值 范围 ， 使 得 

L(( -- 8)n,b) — L(An, 5) 
5d ce Du) cn On) o Oen ef One (Uo e 


=La (^n) + Lj, (( t 9)n) — Lj, (4n) + Lk,((A  9)n) — Lx, (^n) Q0) 
> 0 
成 立 。 
由 式 (18)C7) 知 , 对 Vk € Ko, A zk — 0, A((A+ô)zk, yk) = h(Azi, yk) 二 1n(2)。 由 式 (19) 知 
Lr((à+ ôn) -— Lk (Nn)= 0. (21) 


XL Vj € .有 >， 由 式 (D Al, hz(25,u;) 的 值 从 L2 严格 单调 递增 至 1， 从 而 有 
1 
h((A + 8)2j, yj) = h(Azj, uj) > hi Qj uj)ó2; > 5025, 
1 
Lj, ((à + 6)n) - Lj, Qn) > 50 » 2 Q2) 
Jj 2 
对 Vi E J, BX 0D AU, hz(25, uj) 的 值 从 一 1 严格 单调 递增 至 一 1/2， 从 而 有 
1 
1 
Lj (A 3)n) - Ln On) > -59 5 52. Q3) 
jEJi 
^ 
1 
Eo = 2959 z- g) a+) n) 
JER jE ich ich 

Ho. h, Jo. Ji 的 定义 知 Eo > 0。 这 里 需要 假设 Eo < 1， 它 可 以 模糊 地 理解 为 “样本 集中 
被 分 错 的 样本 数量 小 于 被 分 对 的 样本 数量 的 2 倍 ”， 显 然 是 一 个 合理 的 假设 。 由 式 (15) 知 ， 在 
yi; — 2Wf, hi(zi yi) TEXE XO zi € (700,0). 上 的 值 从 0 严格 单调 递增 至 12， 因 此 对 YA > Ao = 
—o-l(Eg) > 0 和 Vi € I HA hz(Azi, yi) < Ep. 

XP Vie I», WA CD 知 

0 > h((A + 8)zi yi) — h(Azi, yi) > hz(Azi, yi)ózis 
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Lr (A )n) - Ln) > 83 5 hz Qai, yi) > Eo V zi. (24) 


icIo icIo 
由 式 (4) 知 , YE y; — 1H], hz(zi vi) EEI zi € (0, +00) 上 的 值 从 —1/2 严格 单调 递增 至 
0， 因 此 对 YA> A1-o07(1- Ep) > 0Oflü Vie hA 


— E < h;(Azi,yi) < 0. 
对 Vie h, BA OOA 知 
0 > A((A + 8)zi yi) — h(Azi, yi) > hz(zi, yi)ðzi, 
进而 ， 对 YA > Ai 有 


Lj (A ó)n) — Li (4n) >ô bp hz(Azi, Yi)zi > 一 0E0 >. Ži. (25) 
icl icl 


综合 式 (20)-(25) 得 知 ， 当 入 > max(Ao, à} 时， 有 
~ L((A + ô)n, b) — L(An, b) 


nm > Eo X zi — ôEo X 2i + » pst y ud 
c i€la icl jEJ2 jeJ 
= > OPo(>》 z- X z) + 212 gj yoa 
=> icl ich j€Ja j€A 
N . Bim . Za 
T > ges Les a-a) Dy- E a) 
A icl ^ i€I, ^ ic, ic j€Ja jeJ 
: = 0. (26) 


X Q6) 意味 着 L(An, b) FE A € (max(Ao, A1}, +00) 严格 单调 递增 ， 从 而 最 分 优 分 隔 平面 的 
法 向 量 模 长 [io] = Alm| = À € max{Xo, A1}, E 也 有 界 。 
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